s

Accueil

www →

l

Générer des images sociales dans un contexte de surveillance
Informer par la désinformation, la force des faiblesses techniques

Avant-propos :

L’image photographique est depuis quelques années au cœur de mes préoccupations. Je suis d’abord arrivée à l’ÉSAD Valence (2017) dans l’envie de pouvoir lier les pratiques de l’imprimé et du numérique, envie qui peu à peu s’est orientée vers ma pratique personnelle de la photographie argentique. Lors de mon diplôme de DNA (octobre 2019), j’ai mené une production axée sur la technique de tirage argentique à partir de négatifs numériques, une manière de concilier une pratique longue et consciente de la photographie avec une pratique quotidienne de photographie smartphone. Pour l’écriture de mon mémoire, j’ai eu envie de poursuivre mes recherches autour des photographies. Suite à ma mobilité internationale effectuée à ArtEZ (Arnhem, Pays-Bas, 2020), j’ai eu l’occasion de me confronter à une méthode de travail et une recherche d’informations qui ne m’étaient alors que peu familières. J’ai dû penser ma production par les outils mis à ma disposition et en quoi ils pouvaient augmenter mes propos. Jusqu’à présent, un grand nombre de mes productions découlaient d’un corpus de recherches, de références et de théories que je venais compléter en choisissant minutieusement des supports adaptés à mon discours. En plus de m’être confrontée à une méthode de travail différente, ArtEZ accueille un grand nombre d’étudiants internationaux. Les images, au sens vaste, mais aussi les nouvelles techniques de communication, me semblent être le noyau des productions étudiantes de l’école. J’ai appris à ouvrir les yeux sur le graphisme dans le monde, sur les utilisations du machine learning et sur la liberté d’expression réduite, comme en Chine. Dès le début des années 2000, le gouvernement chinois multiplie les interventions jusqu’à fournir ses propres réseaux sociaux dès 2010 afin de restreindre l’accès et la diffusion d’informations, tout en supervisant les utilisateurs. Les images mises en lignes sont « lues » et « vues », analysées et considérées comme appropriées ou censurées. Il faut alors redoubler d’efforts pour permettre à son contenu d’exister, retoucher ses images, les modifier, les altérer. Étant Européenne, je me sens privilégiée dans ma liberté d’expression en ligne et dans mon choix de sujets à diffuser. Le contexte mondial de mon échange a été particulier, étant à l’étranger mais confinée à cause de la pandémie de Covid-19, j’ai dû revoir ma pratique graphique et mes interactions sociales. N’ayant plus eu accès aux ateliers, j’ai senti nécessaire de faire évoluer mes productions. Nos écrans sont devenus plus que jamais nos outils, nos liens sociaux, notre attache à notre zone de confort. Mon quotidien étant d’une certaine manière mis en pause, il devenait difficile de produire des images. Mon nouvel enjeu étant d’utiliser l’existant et les techniques mises à ma disposition, revivant mes souvenirs en parcourant l’ensemble de mes photographies. Créer en utilisant ma propre base de donnée, mes propres archives, jusqu’à me placer en curateur en créant une interface regroupant des photographies qui ne sont pas miennes, considérées comme « ratées » par leurs auteurs, dont le visuel est flou, non reconnaissable, mais dont les métadonnées classent d’elles-mêmes. Ces images ont une histoire qui m’est inconnue, analysées et classées indépendamment de mes choix. Je sors de cette expérience avec une nouvelle vision de ma pratique, une volonté de me concentrer sur les photographies sans opposer l’argentique au numérique. Les techniques de production des images étant en constante évolution, je souhaite alors resserrer mes recherches et l’écriture du mémoire autour des utilisations de la photographie comme objet de diffusion de l’information. Je souhaite également étudier un certain nombre de techniques dont nous disposons aujourd’hui pour leurrer le « regard » de la machine.

Introduction :

La valeur d’information des photographies est propre au procédé même de la photographie. Photographier, c’est avant tout capter une scène, réelle ou arrangée, dont la part d’informations transmise est discutable car bien souvent subjective mais qui sera toujours présente quoi qu’il arrive. À travers les images photographiques, nous avons accès à ce que quelqu’un d’autre a pu voir. Il s’agit d’un moment qui a été et qui ne peut plus exister une seconde fois. Cette notion d’unicité induit un sentiment de rareté. Pourquoi vouloir conserver ? Que nous raconte le photographe ? Les photographies dans le cadre familial et amateur conservent un souvenir. Nous sommes entourés de nos proches, chérissons l’instant et souhaitons le revivre ou le partager. Le photographe amateur choisi ou non d’introduire dans l’image des clés permettant de connaître le contexte de prise de vue. Avec les personnes présentes sur la photographie, il est le seul à connaître avec exactitude le contexte de prise de vue et est libre de transmettre de l’information. Le photographe professionnel partage généralement ses clichés. Ils sont supposés être construits suivant des codes de « bonne photographie » et induisent des informations sans nécessiter un discours. En voyant ces images, nous nous doutons du contexte de prise de vue. Il est rare de se demander « pourquoi cette image a-t-elle été prise ? ». Elles dépendent habituellement de contextes sociaux et politiques généraux dont nous avons tous connaissance ou entendu parler. L’image photographique offre alors un suivi de l’actualité. Il y a une maîtrise du sujet et de la transmission d’informations. Une fois à la vue du grand public, elles peuvent faire appel à notre ressenti (pour sensibiliser à un sujet par exemple) comme elles peuvent nous être complètement objectives (dans le cas de la photographie scientifique). Cette valeur informative est soumise à la confiance que nous avons en la source de l’information. La frontière entre le vrai et le faux est mince, il nous faut pouvoir douter des images. Elles dépendent d’un point de vue adopté, d’une opinion et souvent d’un ensemble de convictions. Si une source d’informations nous semble fiable, nous serons amenés à croire les images diffusées sans les remettre en question. L’opinion public est façonnable, notre naïveté individuelle devient une faiblesse. Aujourd’hui, les photographies sont produites et diffusées en masse, comment sélectionner l’information et la distinguer de la désinformation ? Comment les nouvelles technologies de production des images influent sur notre confiance en l’information ? Mon étude portant sur les images photographiques, le terme image sera utilisé pour parler de photographies, dans le cas contraire je préciserai de quel type d’image je ferai référence. Mon mémoire fait l’étude de l’existant et montre les avancées technologiques autour de la photographie et des systèmes de reconnaissance. Je montre également les limites actuelles de ces systèmes et tente de trouver les lacunes des technologies de vision par ordinateur pour reprendre le contrôle sur notre société de surveillance. Je ne prétends en aucun cas trouver une solution universelle mais plutôt d’appréhender une faiblesse de la technique.

Utilisations sociales et techniques des photographies

Diffusion l’image, que nous apporte la photographie

L’image photographique a connu de nombreuses évolutions techniques. Aujourd’hui, les technologies du numérique offrent de nouvelles perspectives aussi bien sur le plan créatif que pratique. La photographie smartphone est accessible à tous, et marquée par sa diffusion rapide. Pourtant seul un nombre limité des images produites est réellement diffusé; uniquement les images que l’on veut montrer, les meilleurs clichés, les plus marquants.

D’une manière générale, la photographie permet une transmission rapide d’une information, un simple coup d’œil peut suffire à faire passer un message, contrairement au texte qui nécessite une certaine culture et une connaissance de la langue. Pourtant, le fait qu’elle dépende de choix à la prise de vue mais aussi au tirage implique nécessairement un point de vue. Qu’est-ce qui est montré ? Que comprenons-nous du cadrage ? Qu’est-ce qui nous est caché ? Tant de questions auxquelles nous ne pensons pas dans un premier temps, nous laissant guider par la relation texte/image et son contexte. Vivant dans une société de la surabondance des images, aussi bien en terme de captation que de diffusion, les images sont construites de manière à cibler un message selon des codes que nous finissons par assimiler sans en avoir conscience. Notre œil finit par être entraîné jour après jour à analyser des formes, des scènes, pour n’en garder que l’information essentielle, le message que l’on veut faire passer. L’image apporte alors une immédiateté dans la transmission d’informations. Dans une photographie, nous sommes soit dans la contemplation, soit dans ce que Barthes appelle le « punctum ».

« La voyance du photographe ne consiste pas à voir mais à se trouver là »(…) le punctum c'est le sentiment violent que "cela a été une fois" et atteste d'une réalité « ça a été ». Quelque chose s'est posé devant le petit trou et y est resté à jamais. L'essence de la photographie c'est de ratifier ce qu'elle représente.1

« Ça a été », suppose une confiance dans l’image, de vérité absolue, pourtant présentée selon des choix initiés par le photographe, et ce malgré le choix du sujet, du cadrage, et le fait que nous savons que la retouche fait depuis toujours partie des possibilités de modification de l’image. Il nous faut alors réussir à douter des images pour mieux les analyser et comprendre qu’on ne voit que ce que l’on veut bien nous montrer. Nous devons réapprendre à regarder.

Diffusion en ligne

Aujourd’hui, la photographie numérique et notamment avec l’aide des smartphones permet une liberté dans la prise de vue des amateurs et une réduction des coûts pour obtenir un cliché: plus besoin de se soucier de délais, de prix du tirage. Tout le monde possède un smartphone et il nous semblerait même impensable d’investir dans un outil numérique tel qu’un ordinateur, une tablette ou un smartphone ne possédant pas au moins une caméra. Nous somme séduits par l’idée de pouvoir nous détacher d’un appareil photographique encombrant. Décider d’emporter son appareil photographique nous pousse à devoir s’en servir. Le sentiment de ne pas l’avoir emporté pour « rien » nous pousse à penser que nous sommes sur le point de vivre un moment qui vaille le coup d’être sauvegardé, photographié et dont l’on veut se souvenir. À l’inverse, un smartphone, compact, disposant d’un dispositif graphique toujours plus performant et de caméras aussi bien extérieures que frontales semble être une meilleure alternative. La convergence des technologies de communication numérique a eu lieu au Japon avec le Kyocera Visual Phone VP-210 (1999), avant d’atteindre le reste du monde. Destiné aux personnes actives « moyennes » dans le pays, l’ajout d’une caméra est décrit comme permettant de travailler plus efficacement.2 Ces téléphones étaient donc dès le départ destinés à compacter plusieurs appareils. Nous n’avons pas à nous soucier du « dois-je emporter mon appareil aujourd’hui? » et nous pouvons photographier l’ensemble de ce qui nous entoure, aussi bien les grands moments que les instants du quotidien.

Images conversationnelles

Cette facilité de prise de vue mène à une production de photographies toujours plus importante. Ces images sont presque systématiquement échangées, diffusées sur les réseaux; elles parlent du quotidien. Désormais, diffuser est presque une condition indispensable permettant à l’image d’exister dans l’écosystème numérique. André Gunthert nomme cette évolution des images liées aux outils de prise de vue connectés, « les images conversationnelles ». Un smartphone est avant tout un outil de communication. Le lien social que nous entretenons avec nos amis, connaissances et relations professionnelles passe principalement par des outils de communication numérique (un e-mail, un sms, un appel, etc.). Comme dans le milieu de la presse, ajouter une photographie à un contenu textuel permet d’appuyer son propos. Par exemple, un selfie où l’on sourit montre que nous sommes en train de passer un bon moment. Si nous pouvons voir l’arrière-plan, c’est même la preuve que nous nous trouvons quelque part. L’essor de cet échange d’images sous forme de dialogue visuel a été compris et approprié par des applications mobiles telles qu’Instagram, surpassant une autre application connue pour l’échange d’images: Snapchat. Aujourd’hui, Instagram permet la diffusion de contenus visuels auprès de plusieurs niveaux de destinataires: l’ensemble des personnes qui nous suivent sous formes de photographies permanentes, l’ensemble des personnes qui nous suivent sous formes de photographies éphémères en story, un nombre délimité de personnes choisies dans la messagerie instantanée ou par les stories pour « amis proches ». Les images vivent, circulent, apparaissent, disparaissent tout aussi vite, solidifiant la vision immatérielle et éphémère que nous avons du numérique.

Stockage

Diffuser devient alors plus facile que jamais, chacun devient créateur d’un album de clichés en ligne, accessibles en quelques clics. Des photographies qui alors ne nous appartiennent que partiellement. Chaque image mise en ligne est facilement téléchargeable, sauvegardée à notre insu, utilisée et partagée, stockée dans les serveurs des réseaux sociaux. Google Photos, par exemple, permet de stocker l’intégralité de nos images sur un cloud. Pourtant, si l’on souhaite en supprimer, nous aurons uniquement l’impression d’avoir effectué la suppression. En réalité elles ne sont plus visibles sur notre cloud mais toujours stockées dans des serveurs qui nous sont inaccessibles. Ces clauses ne nous sont pas cachées; elles sont présentes dans les conditions d’utilisation au moment même de la création d’un compte, mais perdues face à la masse d’informations. Nous ne les lisons pas, faisant preuve d’un excès de confiance. Nous sommes de plus en plus, amenés à utiliser ces outils de stockages et réseaux sociaux pour des utilisations professionnelles. Il nous est de plus en plus difficile de nous en passer. En définitive, les grandes industries de la diffusion en ligne sont capables et construisent des banques de données et d’images grandissantes en toute légalité. Nous sommes archivés et référencés, mais que deviennent nos images? Quel intérêt peuvent avoir ces compagnies à conserver une masse d’images aléatoires, qui parfois nous semblent même être sans intérêt, des images stockées et oubliées. Des photothèques numériques se nourrissent de notre quotidien. Nos photographies sont utilisées à des fins commerciales, en particulier par des entreprises américaines pour lesquelles les réglementations sont légèrement différentes des nôtres en Europe. Depuis peu nos portraits sont supposés rester dans le cadre du réseau social, alors qu’elles peuvent être rachetées aux États-Unis. En 2013, une publicité du site de rencontre ionechat.com est diffusée par Facebook. Nous pouvons y voir le portrait d’une jeune femme. Il s’agit de Rehtaeh Parsons, une adolescente de 17 ans qui s’était donnée la mort quelques mois plus tôt pour viol et cyber-harcèlement. Le publicitaire avait accès aux photographies publiées sur Facebook, sans avoir à demander l’accord des auteurs légitimes des photographies. Erreur qui se fait remarquer et suscite colère et méfiance des utilisateurs de Facebook. L’événement sera ensuite repris et mis en scène dans un film documentaire et dénoncé à l’international dans des médias d’information comme dans leparisien.fr.3

Rehtaeh Parsons

Rama Rau, No Place to Hide: The Rehtaeh Parsons Story, 2015

Il s’agit d’un exemple parmi d’autres des utilisations de nos images personnelles publiées en ligne, dont nous ne pouvons pas suivre le parcours. Elles circulent librement, sont récupérées avec notre accord ou non. En plus de montrer quelque chose de personnel (un portrait, un lieu, un moment qui ne devait rester que dans un cercle privé), les photographies comportent une part d’information inscrite automatiquement et/ou manuellement par son auteur. Récupérer un grand nombre de photographies issues de sources différentes intéresse à des fins commerciales comme vu précédemment. Collecter et analyser les images c’est aussi informer sur un instant passé, une situation sociale ou encore un état des lieux. Un grand nombre de photographes mais aussi d’archivistes ou de chercheurs mettent en place des systèmes de classement et d’identifications d’images, jusqu’à intéresser les ingénieurs travaillant sur la question de reconnaissance d’images.

Informer identifier l’anonyme

Analyser les images

Les images augmentées l’homme derrière la machine

L’une des forces de la photographie numérique est qu’elle permet de produire une quantité d’images que ne permettait pas l’argentique. Une photographie est un témoignage d’un instant passé, dont le discours reste à préciser pour qu’elle puisse être classée et archivée. Autrement, une même image peut recevoir plusieurs interprétations et il est alors impossible de les catégoriser sans garantie de fidélité du discours.

Prétendre induire un discours déterminé dans une photographie revient à augmenter l’image par du texte, un peu à la manière de la photographie de presse, tout en soustrayant l’aspect subjectif. Il s’agit alors de déterminer un lieu, une date, un contexte historique. Un travail minutieux de collection et de répertoire est mis en place, que ce soit à la manière de John Brinckerhoff Jackson, géographe, professeur d’université, historien du paysage américain et fondateur de la revue Landscape; est réputé pour son organisation de pensée par fiches, ses clichés par thèmes puis catégories, et son travail autour de la structure des paysages. Ce ne sera qu’en 1960 qu’il se détachera de ses écritures de terrain et adoptera la prise de notes, rapides, en introduisant manuellement des données textuelles sur ses diapositives (Route du XIX ͤ siècle, route à péage, Californie, diapositive 5x5cm).

John Brinckerhoff Jackson

John Brinckerhoff Jackson, Route du XIX ͤ siècle, route à péage, Californie, diapositive 5x5cm

La collection peut prendre forme de catalogue comparatif comme pour Bernd et Hilla Becher (Water Towers USA, 1988) donc en créant une grille d’images photographiques afin d’obtenir un état des lieux d’un élément architectural à un période déterminée.

Bernd et Hilla Becher

Bernd et Hilla Becher, Water Towers USA, 1988

Marianne Wex, artiste, écrivaine, militante féministe et naturopathe allemande, dans sa série Let’s Take Back Our Space (1979) photographie les individus. Pour elle, ce n’est pas le discours de l’image elle-même qui permet de créer l’archive mais bien la collection. Dans cette série, elle s’attache à capturer hommes et femmes ayant la même posture, elle dispose ensuite sa série sous forme de planches, décrivant l’objet de sa capture (« position de jambe et pied »), numérotant chaque cliché et séparant les hommes des femmes. Elle met alors en évidence les attitudes liées au genre des individus, en quoi nous sommes influencés jusqu’à notre posture. Dans quelques expérimentations où elle demande à ses sujets de se positionner selon les clichés du genre opposé, Wex constate que les hommes ont plus de mal à imiter une posture féminine, à l’inverse des femmes, certes plus réservées en présence d’un homme, qui nous montrent une gestuelle plus affirmée et se sentant plus facilement à l’aise à la demande d’imiter un homme. La narration naît du système mis en place, le discours est créé dans la comparaison.

Marianne Wex

Marianne Wex, Let’s Take Back Our Space, 1979

Si un contexte, un code et un système sont pré-établis par l’auteur de la collection, le doute quant au discours de l’image est diminué. Même si l’auteur de la collection utilise un système qui lui est propre, son point de vue reste subjectif. Ce doute persistant peut alors disparaitre grâce à l’apport d’une légende.

Relation texte/image, le rôle de la légende

Une photographie, aussi explicite soit-elle, peut être décrite de mille façons différentes, plus ou moins proches de la réalité. Seul le photographe sait pourquoi il a décidé de prendre un cliché plutôt qu’un autre, il décide de ce qui nous sera montré. Dans le cas des photos de famille, quelques informations brèves peuvent être annotées au dos, comme la date, les noms des sujets, parfois un contexte, un événement familial par exemple. Cependant la photographie reste principalement présentée en compagnie de l’auteur de la photographie qui peut ensuite détailler oralement ce qu’aurait dû être la légende. Pour les photographies présentes dans la presse ou exposées, le contexte de prise de vue dit beaucoup sur le contenu de l’image. Augmenter une image par le texte revient à ajouter une information, à transmettre un message « Une phrase peut soudain éclairer une photographie dans un sens jusqu'alors insoupçonné. ».4 Une légende se compose généralement de quatre éléments principaux: le nom du réalisateur (photographe ou organisme) et l'année, les renseignements techniques, la désignation du sujet, le commentaire. Étrangement, lorsque que nous sommes amenés à parler d’une photographie, à la décrire, nous nous servons bien souvent des éléments lus dans la légende pour y référer. Il nous est difficile de dissocier textes et images à partir du moment où nous avons reçu ces deux types de données. C’est alors un travail laborieux que d’assurer l’exactitude d’une légende. Si en effet la relation apporte une confiance dans le récit produit, une fausse légende revient à créer une réalité alternative. Ces variations se retrouvent dans la presse, quand le titre de l’image n’est pas assez « percutant » pour attirer l’attention. Une même image légendée de deux manières différentes installe le doute et il nous faut alors décider quelle réalité croire. Nous parlons alors de désinformation. L’utilisation des réseaux sociaux permet également de diffuser de fausses informations, alors appelées « intox ». Vues et partagées en masses, les intox nous induisent en erreur. Sans vérification de chaque image, il est facile de se laisser influencer par l’opinion général et l’effet de masse. Certaines images sont par exemple réutilisées, sorties de leur contexte pour appuyer des points politiques actuels. Le 23 août 2018, une photographie est diffusée, cherchant à blâmer Matteo Salvini, le Premier ministre italien, qui refusait d’accueillir des bateaux humanitaires voulant venir en aide aux migrants traversant la Méditerranée. Le message cherche à inverser les rôles, référant aux nombreux migrants italiens ayant quitté l’Italie pour rejoindre les États-Unis au début du XX ͤ siècle. Sauf que la légende est fausse. Nous voyons bien en bateau transportant une foule de gens mais il s’agit du rapatriement des troupes américaines à la fin de la Seconde Guerre mondiale, non pas des réfugiés italiens.5 Information facilement vérifiable, il s’agit du premier Queen Elizabeth, un paquebot de grande ligne utilisé pour le déplacement de troupes militaires durant la Seconde Guerre mondiale.6

intox Queen Elizabeth

les observateurs, France 24, Ces photos d’archive détournées pour faire de l’intox, 2018

légende Queen Elizabeth Queen Elizabeth

Britannica, Queen Elizabeth British passenger ships

La relation texte/image qu’implique la légende installe une confiance dont nous devrions peut-être nous méfier. Le fait de voir et d’avoir un appui textuel pour nous aider à comprendre ce que nous voyons limite notre capacité de jugement. En ce sens, les légendes peuvent être aussi trompeuses que les images. Les informations techniques, n’influençant pas le jugement, sont supposées êtres inscrites dans la légende mais ne sont pas diffusées au grand public. Nous y retrouvons le type d’appareil utilisé, les réglages, les éléments de développement et de tirages. On peut alors les comparer aux métadonnées inscrites dans l’image numérique. Ces informations sont masquées, mais seraient-elles la preuve d’une vérité irréfutable? Existe-t-il un moyen d’éviter l’intox?

Meta/Les images peuvent-elles parler d’elles-mêmes?

Le professeur d’histoire de l’art et de littérature à l’université de Chicago W. J. T. Mitchell introduit le terme de « Metapicture » dans What do Pictures Want ? et dépeint les images comme objets qui parlent d’eux-mêmes. « Meta » a pour définition « se référant à lui-même ou aux conventions du genre qui lui est propre; auto-référencé ». Mais qu’est-ce que peut bien impliquer l’existence de méta-photographies? Que sont les photographies parlant de photographies? Un autoportrait à la manière de Michael Snow ou de William Anastasi pour lesquels ces derniers utilisent un miroir et répètent l’action afin de créer une mise en abîme crée-t-il un méta-photographe?

Michael Snow

Michael Snow, Autorisation, 1969

William Anastasi

William Anastasi, Neuf portraits polaroïd d’un miroir, 1967

À l’ère du numérique, les règles changent. L’événement des « seflies miroir » nous rendraient tous méta-photographes. Aujourd’hui, grâce aux capteurs de nos appareils numériques, nous sommes à même d’accéder aux informations sur les conditions de la prise de vue de l’image, sur les caractéristiques de l'appareil et son état au moment de la prise de vue (réglages divers comme l'exposition, l'ouverture d'angle, la balance des blancs, etc.). Nous parlons alors de métadonnées. Ce sont généralement la date de création, l’appareil, le lieu, sa position GPS mais aussi quelques informations comme la luminosité, l’exposition ou même l’ouverture du diaphragme de l’appareil lors de la prise de vue. Ces informations sont inscrites dans l’image digitale. Il n’y a plus de confusion à avoir quant aux géolocalisations des lieux photographiés par exemple. En d’autres termes, l’image possèderait déjà un discours limité, permettant de les catégoriser en grande thématiques d’archivage. L’auteur et le lieu étant deux grandes rubriques historique de l’archivage d’image. En effet, identifier le lieu d’une photographie est l’un des enjeux principaux lors de la création d’une archive. Dès 1938, le Musée de l’Homme a à cœur de regrouper l’ensemble des photographies de sa collection pour mettre en place une photothèque. Un système de pastilles colorées est établi, mettant en valeur, elles marquent trois aspects : la reproductibilité, le lieu et enfin le sujet. Le système fonctionne car il permet un accès rapide aux différents lieux géographiques d’un simple coup d’œil.

La photothèque du musée de l’Homme (1938-1960) La photothèque du musée de l’Homme (1938-1960)

Anaïs Mauuarin, Estelle Blaschke, Une agence au musée, La photothèque du musée de l’Homme (1938-1960), Transbordeur photographie histoire société, tome 3, Câble, copie, code, Photographie et technologies de l’information, Éditions Macula, Genève, 2019

Deep learning

Affirmer que les métadonnées contiennent toutes les clés permettant de classer les images est pourtant un énorme raccourci. Nous ne savons toujours pas quel est le sujet du cliché, que fait-il, dans quel contexte, uniquement quelques informations aidant à l’organisation et la classification. L’apprentissage en profondeur, ou deep learning, sous-partie du machine learning, lui-même sous partie de l’intelligence artificielle, est un concept ne prenant de l’ampleur que depuis les années 2000, d’une part à cause de la faible performance et des coûts élevés des ordinateurs. Il se base sur le concept des réseaux de neurones artificiels, apparu en 1943. Il s’agit d’importer des entrées pour en sortir une probabilité d’exactitude en fonction de résultats précédemment calculés. Les ordinateurs permettent d’optimiser l’avancée du deep learning. Nous disposons de méthodes d’apprentissage dit « supervisé », c’est-à-dire que l’homme a créé une base de données dont la machine dispose et est capable de comparer si oui on non les nouvelles entrées font partie du même groupe; ou d’un réseau de neurones permettant d’affiner l’analyse des éléments d’une image jusqu’à obtenir un résultat final. Ce sont les mêmes méthodes qui sont utilisées sur les réseaux sociaux pour détecter des contenus sensibles. Les points importants du deep learning au niveau de l’image se trouvent dans l’intensité des pixels dont elle est constituée, de ses différentes arrêtes et des différentes régions, aux formes particulières. La linguistique informatique vise à modéliser les langues pour en permettre des traitements automatiques par informatique, comme dans le Traitement Automatique des Langues Naturelles. Les corpus de textes sont soit déjà numérisés (des suite de chaînes de caractères donc), soit des techniques d'OCR sont employées pour ensuite utiliser de la linguistique informatique. Ces méthodes sont utilisées depuis quelques décennies aussi bien pour de la reconnaissance de texte que pour de la traduction automatique. Combiné à la vision par ordinateur en utilisant la reconnaissance de caractères dans une image (ce que fait l’OCR, partir d'une image en pixels pour en extraire des chaînes de caractères encodés numériquement), la capacité d’accéder aux informations visibles sur une image est de plus en plus performante. Il est bien plus facile de reconnaître les lettres de notre alphabet dont les informations nécessaires sont plus facilement déterminées que pour les objets et autres formes du quotidien. Quand il s’agit de l’image, avant de pouvoir laisser l’ordinateur estimer le contenu d’une photographie, il faut lui apprendre quels ensembles de pixels correspondent à quelles formes et donc à quel objet. L’annotation dans les images, à la manière des images augmentées vues précédemment, est le point de départ de ces technologies. Il s’agit d’un processus de longue haleine qui est bien souvent sous-traité dans des pays où la main-d’œuvre est moins onéreuse. Quelques erreurs dans l’indexation des images ont tendance à apparaître à cause des différences culturelles entre pays. Une tasse de café peut être confondue avec une tasse de thé. Les réponses étant contradictoires, l’apprentissage prend alors plus de temps. Depuis 2012, la puissance des calculs des systèmes de réseaux de neurones est en constante progression, nous permettant aujourd’hui de reconnaître automatiquement une quantité d’informations inégalée.7 Sur l’image ci-dessous, on observe que l’algorithme permet de reconnaître différents éléments dans une images, sans soucis d’échelle ou même de perspective.

Calculer les images Photographie et intelligence artificielle

Sabine Süsstrunk, Estelle Blaschke, Davide Nerini, Calculer les images Photographie et intelligence artificielle, Transbordeur photographie histoire société, tome 3, Câble, copie, code, Photographie et technologies de l’information, Éditions Macula, Genève, 2019

En mai 2018, Facebook annonce avoir développé un algorithme déjà capable de classer plusieurs milliards de photographies sous 17.000 catégories. Possédant aussi Instagram, le nouvel algorithme de Facebook va en réalité utiliser les hashtags (mots-dièses) laissés par les utilisateurs à la publication d’une nouvelle photographie pour tenter d’identifier les formes.8 Pourtant ces descriptions sont ajoutées manuellement, avec plus ou moins de fautes de frappe et d’exactitudes dans le choix des hashtags. La même année, Microsoft research annonce développer un logiciel d’intelligence artificielle capable de créer des images à partir de descriptions textuelles, des mots-clés, l’équivalent de nos hashtags sur Instagram. Ici on n’est plus uniquement sur de la reconnaissance mais sur de la création.9

De la microforme au robot dessinateur, la place des données dans l’image photographique

Estelle Blaschke, De la microforme au robot dessinateur, la place des données dans l’image photographique, Transbordeur photographie histoire société, tome 3, Câble, copie, code, Photo

Cette possibilité de créer automatiquement du contenu visuel grâce à une base textuelle marque un tournant dans le statut de la photographie. Une image créée suivant cette méthode n’est plus alors illustration d’un propos mais peut devenir la base de diffusion de l’information.

Identifier pour un usage personnel

Permettre d’identifier des images par du texte revient à affirmer que ce que nous pouvons voir correspond à ce qui est écrit. Au quotidien, nous retrouvons cette relation lors de recherches d’images dans la galerie de notre smartphone, dans les applications de stockage en ligne, sur Facebook en recherchant quelqu’un, mais aussi de manière invisible à l’utilisateur lorsque par exemple nous souhaitons déverrouiller notre smartphone.

Les innovations créées pour nous simplifier la vie sont désormais omniprésentes, conçues pour nous aider dans notre archivage de souvenirs ou simplement nous conforter dans le fait de savoir l’ensemble de son contenu personnel protégé par un système de sécurité efficace. Les smartphones, les caméras de surveillances mais aussi les clouds sont à même de reconnaître un individu à la simple lecture d’une photographie. Facebook permet depuis plusieurs années d’identifier nos amis sur les photos que nous publions, ces photos apparaissent ensuite sur leur page. Force est de constater qu’au moment de la publication, Facebook nous proposera même d’identifier nos amis, il nous suffit ensuite de confirmer ou non son analyse. Il en va de même pour Google Photos, des dossiers regroupant l’ensemble des personnes présentes dans notre galerie se forment automatiquement, il nous suffit ensuite d’indiquer un nom pour permettre une recherche rapide. Ces systèmes de reconnaissance permettent de créer un répertoire rapide des utilisateurs sur les réseaux, les liant entre eux, produisant un réseau toujours plus étendu autour d’un utilisateur. Jugée intrusive, la fonctionnalité de face.com utilisée par Facebook est aujourd’hui bloquée en Europe. Les visages issus de photographies numériques ont alors une autre dimension. Ils existent et apparaissent sur la page du propriétaire de l’image, mais aussi sur les pages de l’ensemble des individus identifiés. Une image existe alors pour une audience plus ou moins grande, nos amis, les amis de nos amis, tout le monde. Et même après suppression, cette image existe par le biais des individus identifiés. Le propriétaire n’est alors plus l’unique propriétaire, l’image devient propriété de toute personne y apparaissant. L’utilisation massive des smartphones change nos activités quotidiennes, chaque démarche peut désormais être réalisée à l’aide d’une application mobile, et pour garantir de notre identité des authentifications poussées sont mises en place. Il en va pour nos banques, par exemple, qui de plus en plus demandent une vérification sur nos smartphones, des facilités de connections à l’aide de notre empreinte digitale, une comparaison de notre carte d’identité avec une photo à l’aide de reconnaissance faciale. Du fait du nombre d’utilisations possibles sur smartphone, les fabricants tentent de nous rassurer en nous promettant que l’ensemble de nos données personnelles sont bien protégées, que nous pouvons utiliser nos applications en toute sécurité. Pour ce faire, il est désormais possible d’utiliser la reconnaissance faciale pour déverrouiller son smartphone, au même titre que l’empreinte digitale. Système une nouvelle fois craint, nous ne savons pas ce que deviennent nos images et qui peut les utiliser à notre insu.

Si le deep learning a permis de créer des méthodes d’archive et de classification du quotidien, jusqu’à identifier les sujets de nos photographies personnelles, les systèmes mis en place pour permettre la reconnaissance faciale ne datent pas d’hier et n’étaient dans un premier temps pas destinées au grand public. Répertorier les objets et les groupes sont les bases de l’archive et ce sont ces archives photographiques qui permettent ensuite de progresser dans les systèmes d’identification.

Reconnaissance faciale

Nous nous confortons dans le fait de pouvoir identifier l’inconnu, donner un nom à un individu, reconnaître un objet. Identifier un groupe reste plus simple car plus général, notamment lorsque l’on parle d’objets, d’animaux, de lieux. Or un groupe d’individus se compose d’identités différentes. Comment déterminer un groupe de manière efficace ? Quelles informations nous permettent d’identifier les individus jusqu’à les référencer ? Exister en dehors d’un groupe induit l’individualité et la singularité. Les techniques d’identification scientifiques puis policières ont permis de savoir que notre empreinte digitale, donc l’ensemble des lignes formées sur l’épiderme de notre peau, nous est propre. Comme une trace distincte et unique de notre identité.

(…) chaque être humain […] acquérait une identité, une individualité sur laquelle on pouvait se baser de manière certaine et durable.10

L’individu existe, évolue, prend des décisions qui le place dans un groupe déterminé. Permettre alors d’utiliser la singularité des membres d’un groupe pour le définir devient dès le XVIII ͤ siècle un des enjeux majeurs de l’identification.

Enjeux de l’identification

Notre visage est comparable à notre empreinte digitale. C’est grâce aux singularités de notre visage que nous arrivons à nous reconnaître entre nous d’un simple coup d’œil. De nombreux physionomistes s’intéressent alors aux similarités entre individus de traits singuliers qui forment notre visage.

Johann Kaspar Lavater, théologien suisse, et auteur de L’Art de connaître les hommes par la physionomie (1775-1778), s’intéresse au caractère animal du visage humain. Ses recherches affirment que notre portrait donne des informations sur notre personnalité et notre manière de nous comporter en société. Les physionomistes du XVIII ͤ siècle collectionnent des crânes animaux et humains afin de les comparer. La ressemblance entre un humain et un animal induirait une appartenance un groupe. Les bêtes féroces comme le loup renvoyait aux grands criminels dont les procès faisaient la une de la presse. Ce système d’assimilation renvoie inconsciemment aux fables de Jean de La Fontaine un siècle plus tôt. La Fontaine utilisait l’anthropomorphisme pour créer une narration. Les animaux sont dotés de caractéristiques humaines comme la capacité de parler, tout en gardant leur sauvagerie animale. En comparant l’Homme à l’animal, que ce soit à la manière de La Fontaine ou de Lavater, le jugement critique des individus en fonction de leur apparence animale discrimine de manière radicale le « bon individu » du « mauvais individu ».

Quelques décennies plus tard, Cesare Lombroso (1835-1909), professeur italien de médecine légale, tente de déterminer un profil de criminel type en fonction de ses caractéristiques physiques. Lombroso est célèbre pour ses thèses sur le « criminel né ». Il le met en opposition au criminel par passion qui est selon lui une personne qui ne représente pas une grande dangerosité. L’ensemble de ses recherches se base sur la physiognomonie, une méthode fondée sur l’idée que l’observation de l’apparence physique d’une personne, traits du visage, peut donner un aperçu de son caractère ou de sa personnalité. Dans les années 1866 il commençait à établir une classification de caractères morphologiques. Ses études étaient fortement marquées par les théories de la dégénérescence, le racialisme et le transformisme. Il considérait également que les femmes étaient moins sujettes à la criminalité en raison de leur moindre intelligence et de la nature plus inactive de leur vie. Durant sa carrière, il a étudié plus de 3.000 photos de criminels et les crânes de plus de 343 d’entre eux. Il en est venu à la conclusion qu’un seul caractère revenait presque systématiquement : la fossette occipital. Il présente d’autres traits anatomiques tels qu’une forte mâchoire ou les arcades sourcilières proéminentes, psychologiques comme l’insensibilité à la douleur, et sociaux comme les tatouages ou l’argot qui rapprochent le criminel du sauvage.

Avec l’arrivée de la photographie, Alphonse Bertillon (1853-1914), criminologue français et fondateur du 1er laboratoire de police d’identification criminelle, s’essaye à prédire qui serait susceptible d’être un criminel en se basant sur les portrait de criminels identifiés. En 1883, il crée un système de classement qu’il appellera le « Bertillonnage » sous forme de fiches. Nous retrouvons au recto de ces fiches deux photographies de l’individu, de face et de profil, des observations anthropomorphiques et descriptifs. Au verso sont inscrites les particularités de l’individu. En mettant en place ce système, il efface toute trace de personnalité, toute individualité et peut alors regrouper les individus sans les considérer comme tels. Identifier les groupes et les individus revient alors à créer une archive la plus objective possible. Une démarche qui était pourtant manuelle et donc comportant une part de subjectivité dans les critères choisis et jugés objectifs.

fiche de criminels identifiés

Alphonse Bertillon, « Bertillonnage », fiche de criminels identifiés, 1883

Aujourd’hui, les techniques changent, que ce soit à des fin policières ou pour un usage personnel, la photographie est plus que jamais exploitée mais nous laissons la part d’analyse aux algorithmes. Les criminels référencés servent encore de base aux algorithmes d’anticipation, se nourrissant de portraits de délinquants identifiés dans des contextes sociaux différents d’aujourd’hui. Le référencement des individus introduit les premières tentatives de systèmes automatisés de reconnaissance faciale en 1973 par Takeo Kanade, informaticien et professeur japonais spécialisé dans la vision par ordinateur.11

Il créé une méthode pour localiser les différents éléments du visage, ses limites, puis une quarantaine de relations géométriques entre les éléments afin d’identifier les singularités du visage. Un système qui ne cesse d’évoluer et qui permet déjà de nombreuses applications comme la vidéosurveillance, l’indexation d'images et de vidéos, la recherche d'images par le contenu, etc.

Identifier pour un usage intrusif

La reconnaissance faciale, avant d’être accessible pour un usage personnel grand public, est très largement utilisée dans les techniques de surveillance. Le prétexte de « ville sûre » donne cette sensation de se confronter à Big Brother. Il existe des techniques encore plus pointues et discutables. À l’heure où la menace terroriste est de plus en plus présente, la reconnaissance faciale connaît un intérêt croissant. Une technologie à la fois révolutionnaire et intrusive utilisé par les dirigeants qui préfèrent sacrifier les individus au profit de leur sécurité. En Chine, où 176 millions de caméras sont déjà installées et en l’absence de cadre législatif de protection de la vie privée, les scientifiques de CloudWalk ont imaginé un système qui serait capable de détecter les visages et d’analyser les comportements.12 En les couplant avec les données de la police, on déterminerait un « taux de risque de crime » pour chaque individu. Plus effrayant encore, les autorités chinoises ont mis en place un programme nommé « des examens médicaux pour tous » dans la province reculée du Xinjiang. Ainsi le Parti communiste chinois est en train de mettre sur pied une base de données regroupant des informations biométriques sur toute la population (échantillons de voix, ADN, groupe sanguin, photo de l’iris, empreintes digitale). L’objectif à terme est d’identifier n’importe lequel des 1,4 milliard de citoyens en trois secondes. Aussi extrêmes qu’elles soient au Xinjiang, ces mesures liberticides s’inscrivent dans la lignée générale du Parti communiste chinois, qui prône depuis toujours le contrôle et la répression sur l’ensemble de la population. Le groupe prime sur l’individu. Aujourd’hui avec la reconnaissance faciale, les services de sécurité sont motivés par l’envie de répertorier les individus de manière plus précise, sans laisser place au doute quant à la réelle identité d’une personne contrôlée: le passeport biométrique permet un fichage efficace, et à terme un suivi d’individus déjà répertoriés. La collecte et le classement de données (données climatiques, messages sur les sites de médias sociaux, images numériques et de vidéos publiées en ligne, etc.) sont rassemblées sous le nom de Big Data. En centralisant des données issues de Big Data, mais aussi celles provenant de banques de données publiques, IBM prétend pouvoir anticiper et donc prévenir des crimes et délits. Pour cela trois étapes sont nécessaire : capturer les données, créer des prévisions et enfin agir avec le déploiement des force de l’ordre. La capture de données se fait par la collecte des banques de données publiques et privées mais aussi les mains courantes et les captations issue de la surveillance de masse.

La question de l’éthique reste à soulever : peut-on réellement parler de transparence ou au contraire d’atteinte à la vie privée lorsque chaque faits et gestes sont répertoriés? Les algorithmes sont-ils fiables et les données de bases sont-elles faussées par la stigmatisation ? Ce sont ces erreurs qui m’intéressent. Où se situent les faiblesses de la technologie ? Les technologies non supervisées (possédant des données d’entrée mais à l’inverse de l’apprentissage supervisé, les processus n'aboutissent pas à une erreur, mais fonctionnent par itération et raffinement) sauront-elles un jour catégoriser n’importe quelle image aussi bien qu’un regard humain ?

Marge d’erreur

Du fait que les techniques de reconnaissance d’images soient toujours en cours de développement, un système totalement non supervisé et automatisé ne peut être complètement efficace. L’erreur étant humaine, nous pouvons nous attendre à ce que la l’ordinateur ait assimilé nos erreurs comme étant des réponses valides. De plus, il nous est encore impossible d’identifier efficacement les émotions ni définir quel type d’image nous rend heureux ou triste. Lors de la reconnaissance à l’aide de vision par ordinateur, le programme tente de s’approcher d’une fiabilité à 100%, mais même pour des identifications qui nous semblent faciles, l’erreur existe. J’ai fait le test rapide avec Google Photos. Il existe une option de recherche; j’ai alors cherché à afficher les photos de chats issues de mon cloud. N’importe qui peut voir la différence entre un chat et un chien, même un enfant en très bas âge. Pourtant le système de reconnaissance me proposera également des chiens.

Google Photos

Marie Madonna, capture d’écran de recherche d’images dans Google Photos, 2020

Si ce genre d’erreur existe, alors que l’algorithme a probablement une quantité impressionnante de références permettant d’identifier les choses simples du quotidien, peut-on réellement se fier aux algorithmes lors de la reconnaissance d’éléments plus complexes ? La reconnaissance faciale supposée sécuriser nos smartphones peut-elle être déjouée aussi facilement qu’avec l’algorithme de Google ? Il se trouve qu’à la sortie de Face ID en 2017, un système de déverrouillage d’iPhone par reconnaissance faciale, les lacunes du programme de reconnaissance faciale d’Apple ne se sont pas faites attendre. Le cas des vrais jumeaux, donc deux individus physiquement presque identiques, était attendu. Les visages étant similaires, Face ID a du mal à identifier le propriétaire du téléphone. Pourtant cette confusion s’est également retrouvée entre frères ayant quelques années d’écart, donc se ressemblant car issus de la même famille mais dont les traits diffèrent et dont nous n’aurions aucun mal à les distinguer. Idem dans le cas d’un enfant de 10 ans, Ammar Malik, qui réussit à déverrouiller l’iPhone de sa mère, Sana Sherwani.13 L’éclairage serait le problème; Sana Sherwani aurait son visage en pleine lumière, son fils réussit à déverrouiller le smartphone en présentant son visage dans l’obscurité perturbant les capteurs. Apple avait alors déclaré :

La probabilité qu’une personne choisie au hasard dans la population puisse regarder votre iPhone X et le déverrouiller avec Face ID est d’environ 1 pour 1.000.000 […] La probabilité statistique est différente pour les jumeaux et les frères et sœurs qui vous ressemblent, ainsi que chez les enfants de moins de 13 ans, étant donné que leurs caractéristiques faciales ne se sont peut-être pas encore totalement développées. Si cela vous pose problème, nous vous recommandons d’utiliser un code d’accès pour vous authentifier.14

Comment Apple peut alors justifier que Face ID a toujours du mal à différencier les visages de chinois. Encore une fois dans le cas d’une mère et de son fils mais plus inquiétant encore l’exemple d’une jeune femme capable de déverrouiller l’iPhone de son amie.15 La propriétaire du téléphone le montre simplement à son amie et celui-ci se déverrouille. La photographie ci-dessous montre pourtant les deux femmes qui ne se ressemblent pas.

Face ID ne reconnaît pas deux amies

bfmtv.com, Yan et Wan, deux amies que Face ID n’a pas su différencier, capture issue deYouTube, 2017

Notre sécurité personnelle nous tient à cœur. Si nous verrouillons nos smartphones, ce n’est pas pour le voir se déverrouiller sans notre accord. Savoir que les algorithmes ne sont pas encore assez efficaces pour différencier mène à des questions plus larges, notamment en terme de sécurité publique. Ces algorithmes fonctionnent par machine learning. C’est-à-dire qu’ils bâtissent des modèles à partir des données qu’on leur fournit. Si les données contiennent des biais, l’algorithme va les reproduire. Aux États-Unis, on voit que la police a tendance à surévaluer les délits et crimes commis dans les quartiers noirs, et à l’inverse à sous-évaluer les plaintes des minorités dans ces quartiers, à enregistrer un acte de vandalisme plutôt qu’un cambriolage pour éviter de déclencher une enquête par exemple. Des travaux de data scientists montrent que les données reflètent ensuite ces pratiques discriminantes.16 Le fait que les bases de données à partir desquelles les algorithmes sont entraînés reflètent le système judiciaire discriminatoire dont souffre les États-Unis et les stigmatisations autour des afro-américains victimes de racisme et ayant tendance à être tués. Black Lives Matter (les vies noires comptent/ la vie des Noirs compte) est un mouvement politique né en 2013 aux États-Unis dans la communauté afro-américaine militant contre le racisme systémique envers les Noirs. Ce mouvement s’étend sur les réseaux sociaux par un le hashtag #BlackLivesMatter et est très souvent accompagné d’images, de vidéos et de témoignages dénonçant les attaques racistes.

En septembre 2020, des utilisateurs de Twitter testent l’algorithme et font un constat : lors de la publication d’une image comprenant un homme blanc et un homme noir, placés séparément d’un bout à l’autre d’une image allongée verticalement; l’algorithme, qui lui, doit décider du cadrage des images, cible presque systématiquement l’homme blanc. Les utilisateurs de Twitter crient au racisme, or un algorithme ne peut être volontairement raciste. C’est cependant son apprentissage qu’il faudrait critiquer. Awa Ndiaye, coanimatrice du podcast Tête à Tech show, afroféministe et passionnée de techno-critique se prononce sur le sujet et cite les travaux de la chercheuse Abeba Birhane, basée à Dublin, spécialisée dans les sciences cognitives :

Elle explique bien que le racisme n’est pas un "bug" du machine learning. C’est ce qui rend ce problème très difficile à résoudre : on code du racisme, ce n’est pas juste un problème technique. Il faut retravailler les sociétés avant de pouvoir espérer des algorithmes non discriminants.17

Le fait est que les algorithmes utilisés, que ce soit sur les réseaux sociaux ou par la police américaine, est plus précis sur les visages blancs que noirs, menant à une mauvaise identification des personnes racisées. En prenant en compte ce fait et la stigmatisation de criminels vue précédemment, nous pouvons nous demander quelle est la marge d’erreur et si nous pouvons espérer voir apparaître des algorithmes non stigmatisants, comment réussir à remettre en doute un résultat supposé fiable pour éviter de tomber dans le biais raciste. Au-delà de la marge d’erreur technique notable au quotidien sur le plan de l’identification d’individus, les réseaux sociaux souffrent d’un autre type d’invisibilisation par la censure.

(Dés)informer dans un contexte de surveillance

Contexte de (sur)vie des images

La censure de l’image dans les réseaux sociaux

L’évolution des techniques de reconnaissance et d’indexation sont plus performantes que jamais mais surtout plus intrusives du fait de notre utilisation des réseaux sociaux. Si les images peuvent être « lues » et « vues » par la machine, qu’en est-il alors de la liberté d’expression en ligne, comment pouvoir s’affranchir de la surveillance en continue à laquelle nous nous confrontons à chaque passage sur nos réseaux sociaux ? Publier en ligne, c’est aussi se frotter à la censure volontairement ou non. Sachant que tout le monde peut avoir accès à bon nombre de contenus en ligne, et que les outils pour publier en ligne sont de plus en plus intuitifs, les réseaux sociaux s’arment de logiciels afin de censurer tout contenu qui ne correspondrait pas aux règles d’utilisation. L’idée de masquer les publications choquantes, incitant à la violence, à la haine, montrant du contenu pornographique, sachant que de jeunes enfants ou des personnes sensibles pourraient y avoir accès, est une bonne initiative. Or dans les faits, nous nous rendons compte que le logiciel d’Instagram pointe principalement des photographies à propos féministes (photographies au sujet de menstruations, de corps « trop en chair », de poitrines féminines alors qu’un homme torse nu ne dérange pas, menant au mouvement #freethenipple). Cette censure du corps affecte tout particulièrement les artistes qui voient leurs photographies supprimées mais engendre aussi quelques malentendus. C’est le cas par exemple d’une photographie mise en ligne de la peinture L’origine du monde (Gustave Courbet, 1866), supprimée par Facebook en 2011. Le compte du Centre Georges Pompidou sur le même réseau social montrait une peinture de nu de Gerhard Richter (Ema, Nu sur un escalier, 1966), supprimée en 2012 car représentant un nu; en 2013 la publication d’une photographie de Laure Albin Guillot, Étude de nu (1940), sur le compte du Jeu de Paume est également supprimée, toujours pour les mêmes raisons. Si nous sommes limités dans notre diffusion en ligne, peut-on toujours dire que nous avons la liberté d’expression lorsque nous souhaitons d’utiliser les réseaux sociaux les plus utilisés mondialement?

La censure de l’image au niveau territorial

En tant que française, et même en tant qu’européenne, ma liberté d’expression et mon accès à un vaste contenu en ligne reste un privilège si l’on se compare à d’autres pays. Les jeunes chinois ayant entre 20 et 30 ans, actifs socialement, ont connu Google et ont pu utiliser Internet pour s’informer. Ils ont subi le passage à la censure en ligne au niveau territorial. En effet, la censure en ligne est radicale en Arabie Saoudite, au Vietnam, en Uzbekistan, en Guinée équatoriale, en Syrie, en Érythrée, en Chine, en Iran, en Somalie et en Corée du Nord. Les raisons évoquées seraient politiques, religieuses, ou tout simplement afin de limiter l’accès à l’information. Dans un sens comme dans l’autre, les utilisateurs sont surveillés, se savent surveillés et censurent d’eux-même leur contenu afin de maximiser leur liberté d’expression sans risque. Le paradoxe de vouloir conserver une vie privée mais d’en montrer les événements en ligne questionne notre utilisation de la photographie numérique.

Tank Man

Jeff Widener, Tank Man, Pékin, juin 1989

Certaines images, auxquelles nous avons accès en tant qu’européens, sont censurées par le gouvernement chinois, voulant conserver un contrôle sur la diffusion d’informations en ligne et dans la presse. C’est le cas par exemple de Tank Man, photographie de l’américain Jeff Widener. On y voit un homme se tenant face à trois chars blindés lors du massacre de la place Tiananmen, à Pékin en juin 1989. Cette photographie est systématiquement supprimée dès sa publication sur n’importe quel site chinois.

Reconstitution légo Reconstitution paquets de cigarettes Reconstitution jeu de cartes

Reconstitutions de Tank Man censurées après leur mise en ligne, référencées sur Sina WEIBO

Pour continuer de dénoncer et de commémorer ce tragique événement, les chinois sont contraints de trouver des parades en recréant des images référant plus ou moins directement au cliché original. Elles sont publiées lors de la date d’anniversaire de l’événement, et quasi systématiquement supprimées. L’une des images créées est un montage, remplaçant les chars par des canards gonflables jaunes. Étant identifié par la censure, désormais il est presque impossible de trouver des photographies comprenant des canards gonflables sur les réseaux chinois.

Montage canards

Montage, reconstitution de Tank Man, censuré après sa mise en ligne

Pour garantir un contrôle efficace sur les échanges en lignes, le gouvernement chinois met à disposition un outil de messagerie nommé WeChat, utilisé par plus d’un milliard d’utilisateurs, dont il possède un total accès sur le contenu diffusé. Quand de notre côté nos applications de messageries nous proposent une protection des données et une liberté d’échange, WeChat peut à l’inverse filtrer en temps réel le contenu jugé inapproprié. Pour éviter alors la reconnaissance d’image, les méthodes jusqu’à présent encore efficaces sont de faire pivoter ou renverser en miroir une photographie, en étirant une image sur sa hauteur ou sa largeur, en ajoutant un cadre ou vignettage à l’image. Les images modifiées, passibles de suppression, ont une certaine durée de vie. Elles peuvent très bien échapper à la vérification et exister durant un mois, comme être supprimées dans la seconde suivant son envoi. Les grandes catégories faisant l’objet de filtrage sont le gouvernement, les événements, les conditions sociales, la résistance, le terrorisme, la religion et le nationalisme. Encore aujourd’hui, mes recherches m’ont menées à lire un article à propos du système de filtration d’images en temps réel, trouvé avec l’aide d’une amie chinoise. Pour me transmettre le lien de l’article nous avons soigneusement évité de passer par WeChat. Afin d’être admises, les images sont filtrées selon deux méthodes, la première étant la filtration par ordinateur, la seconde étant manuelle. Des entreprises contrôlent jour et nuit les images échangées, qui sont soumises à un regard humain. Le processus est plus lent mais les employés, souvent jeunes, sont capables de déceler ce que l’ordinateur ne peut pas. Même si le contenu peut être mis en scène et être de l’ordre de la fiction, il s’agit d’une captation du réel. Nous avons accès à l’image, nous pouvons identifier les éléments et formes qui y sont représentés. De ce fait, nous voyons quelque chose et pouvons en tirer des conclusions. La vision par ordinateur identifie ces formes, éléments, mais par l’encodage des pixels de l’image. L’ordinateur n’a pas réellement besoin de créer une image pour « voir » une image. La production d’une image graphique est uniquement réalisée pour être observée par l’œil humain.

Exister en dehors du circuit

Les images fantômes

(…) il n’existe pas d’image n’étant pas destinée à l’œil humain. Un ordinateur peut traiter des images, mais il n’a pas besoin d’images pour vérifier ou falsifier ce qu’il lit dans l’image qu’il traite. Harun Farocki, Phantom Images. Public no 29 (2004)/ New Localities

Je me suis alors intéressée aux images qui existent mais qui ne sont pas nécessairement destinées à être vues. Si les images numériques ne sont rendues visibles que pour être observées et comprises par l’œil humain, il existe pourtant des photographies enfermées dans des boîtes noires et invisibles à l’œil. Elles sont produites, écrites, stockées, analysées et délivrent des informations en fonction de ce que nous souhaitons savoir. Il s’agit d’images opérationnelles. Elles sont utilisées et non pas crées pour leur valeur esthétique. Les images opérationnelles tirent leur nom du fait de leur utilisation. D’origine militaire, elles n’ont pas pour but de représenter un objet mais font partie d’une opération. À l’origine, la fonction opérationnelle de ces images est de servir la vision automatisée de machines programmées pour la détection de cible et la réorientation de la trajectoire des missiles. Des caméras sont placées sur des avions et drones afin de produire ces images. Ces images ne répondent pas à la volonté d’un photographe, il n’y a pas de choix effectué lors de la prise de vue quant au sujet ni même au cadrage. Elles sont complètement neutres mais rendues subjectives à leur réception. En effet, même si elles ne dépendent pas d’un choix, elles vont initier une prise de décision. Elles existent dans un état latent, une boîte noire, avant de délivrer leur contenu. Par définition, une boîte noire est un système dont le fonctionnement interne est soit inaccessible, soit omis délibérément : on ne peut étudier que ses interactions. Ces images techniques d’utilisation militaire ne sont pas destinées au grand public. Elles existent dans un cadre et pour une audience limité. Harun Farocki, artiste photographe et vidéaste est intéressé par des questions de dispositifs filmiques liés à la surveillance. Il appelle ces premières images datant de 1920 les « images fantômes » (Phantom Images) car elles sont généralement prises dans des lieux inaccessibles à l’homme.

Harun Farocki, Eye/Machine

Harun Farocki, Eye/Machine, 2001

Ce n’est qu’en envoyant un robot, un drone, en attachant une caméra à un train, ou même en plaçant la caméra face à une explosion que nous pouvons observer ce qu’il s’y trouve. Elles apportent alors des informations qui nous étaient jusque là très limitées. Ce sont des photographies de ce que nous ne pouvons pas voir. Le réel passe par un intermédiaire pour nous être transmis. Cette perception du « fantôme » réside dans le fait que l’humain est alors un fantôme en expédition dans un environnement hostile, présent sans réellement s’y trouver. Au-delà même des images opérationnelles, le fait d’utiliser la photographie afin de pouvoir voir l’invisible rappelle plusieurs séries de William Henry Fox Talbot réalisées en 1844. L’intention de départ était simple : produire une archive, en l’occurence d’objets, en utilisant la photographie pour voir ce que nos yeux ne sont pas capables d’observer.

Il photographie les objets de manière frontale, une vue selon un axe à peu près parallèle au sol restituera assez fidèlement le point de vue qu'aurait le spectateur s'il était présent sur le lieu de la prise de vue. Du fait que notre œil ne permet pas de voir l’ensemble des rayons lumineux, la photographie serait une manière de représenter le réel efficacement, l’optique capture un ensemble d’informations que nous ne percevons pas mais que nous pouvons observer lors du développement, puis au tirage. Une manière de répertorier de la façon la plus objective possible. Les techniques photographiques argentiques sont également comparées au principe de la boîte noire. En effet, lors de la prise de vue, une surface photosensible reçoit un certain nombre de rayons lumineux, permettant ainsi la captation d’une image. Cette image existe avant de passer par l’étape de développement, mais dans un état latent. Comme pour la boîte noire, des informations sont reçues et inscrites dans le système de captation technique, il faut procéder à une étape supplémentaire pour accéder aux informations.

William Henry Fox Talbot

William Henry Fox Talbot, Articles of China, calotype, Sheet: 7 1/4 × 8 3/4 inches, 1844

Le fantôme pour ce type d’images n’est plus une métaphore se rapportant aux humains, mais une description de ce que nous pouvons voir. Nous voyons l’invisible par l’intermédiaire de la photographie, et si Talbot présente des images destinées à être vues, c’est cette notion d’intermédiaire qui m’intéresse. Il n’y a alors pas une réalité unique mais plusieurs réalités identifiables en fonction de la technique de captation utilisée, donc un apport d’informations différent en fonction d’un système déterminé.

La stéganographie

Quelque chose d’invisible est par définition quelque chose qui n’est pas visible, qui échappe à la vue. Nous avons alors affaire à quelque chose d’existant mais qui nous échappe. Une photographie, comme son contenu, peuvent nous être invisibles. Soit parce que les destinataires de la dite photographie sont limités, ce qui fait qu’elle n’est pas montrée au grand public, soit car nous n’avons pas accès à son contenu. Il existe une méthode qui permet de combiner ces deux modes d’invisible. Nous parlons de stéganographie. La stéganographie consiste à dissimuler un message au cœur d'un autre message, une manière de diffuser un message invisible à la vue de tous ou presque. Le fichier, ou dans notre cas l’image, nous offre peu d’informations reçu, ou alors une information désuète. Mais en sachant où regarder, quoi modifier, il serait alors possible d’accéder à un message ou bien à une image dissimulée. Contrairement à la cryptographie dont le but est de partager des informations qui ne peuvent être comprises que par un groupe limité d’individus, la stéganographie repose sur le fait que le message ne soit pas trouvé. Il existe mais est invisible. Les premières techniques de stéganographies remontent à 440 av. J.-C., en cachant un message sur un crâne rasé. Aujourd’hui, le numérique offre la possibilité de produire et de diffuser tous types de contenus. Une image peut en cacher une autre, elle peut aussi contenir un programme exécutable. Leur diffusion se fait principalement par les réseaux sociaux. Envoyer un mail, ou un message contenant une stéganographie rend l’expéditeur et le destinataire faciles à identifier. Or, en utilisant les réseaux sociaux, une image jugée anodine peut avoir un destinataire visé qui saura comment décoder l’information. Le nombre d’ « amis » médian en mars 2018 étant de 338 sur Facebook, alors même si un message peut être découvert, il faudrait étudier l’ensemble des 338 amis pour connaître le destinataire potentiel. De plus, d’après la société de veille numérique Brandwatch, en 2019, 3,2 milliards d’images ont été partagées par jour sur les réseaux sociaux.18 D’après quelques études menées par Lindsey Kathryn Trotter en 201919, Google+ était le réseau conservant le plus de messages cachés, Twitter et Flick dépendent de la méthode de stéganographie utilisée, et Facebook serait le réseau conservant le moins de messages dû au traitement d’images et à la compression automatique lors de la publication. Il est cependant possible d’utiliser Facebook, le réseau social principal mondialement, en postant son image en tant que « couverture » car elles sont intégrées différemment des publications classiques. Aujourd’hui, des applications de stéganographie sont gratuitement téléchargeables sur ordinateurs mais également via l’Apple Store et Google Play. Nous retrouvons par exemple Stegg, StegoMagic - Steganography et Pictograph - Stegangraphy pour iOs dans l’Apple Store français. L’enjeu principal reste ensuite d’en comprendre le fonctionnement, que ce soit du côté expéditeur et du côté destinataire. Ces systèmes offrent des possibilités de diffusions de contenus à la vue de tous tout en dissimulant une information, et donc en existant librement malgré un environnement restrictif. Destinées à être vues et échangées, les stéganographies par l’image n’attirent pas l’attention des systèmes de censure. Il y a alors une faille exploitable, une faiblesse technique en profondeur accessible pouvant permettre de contourner la filtration d’images.

Rendre anonyme l’identifiable alternative à la censure

La faiblesse de la technique

Permettre d’échanger des images, de leur offrir la possibilité d’exister, de communiquer des informations personnelles ou politiques est une liberté dont nous devrions tous avoir accès. Pourtant aujourd’hui, échanger et exister en ligne semble de plus en plus compliqué. Entre les surveillances massives et les droits réduits d’informer par l’image, il faut reprendre le contrôle. Si la stéganographie permet d’échapper à la modération, cette technique n’est pas à portée de main de tout le monde. Il faut sans cesse redoubler d’ingéniosité face aux systèmes de reconnaissance de plus en plus poussés. Dans cette envie de s’affranchir d’une surveillance intrusive, je me suis intéressée aux procédés utilisés pour la contourner; procédés aussi bien matériels qu’immatériels. Certains procédés ont déjà fait leurs preuves, d’autres se jouent des techniques même de censure par le flou. Ils perturbent notre perception du réel en cassant les lignes des visages ou en trompant la vision par ordinateur.

Camouflage

Nous ne pouvons pas disparaître complètement de l’espace public ,ni de notre environnement numérique. Pour continuer d’exister en évitant de laisser trop de traces de nos passages et interactions, nous pouvons tenter de nous dissimuler. Pour déjouer la vidéo surveillance, une technique nommée CV Dazzle (Computer Vision Dazzle, Adam Harvey, 2010), similaire au camouflage de chars d’assaut ou de navires de guerre du nom de Dazzle (traduit par « embrouiller » en français) permet de perturber la reconnaissance faciale. En effet, elle consistait à briser la silhouette des navires, rendant leur vitesse et distance difficile à estimer. Pour se faire il suffit de modifier les couleurs et de tracer des motifs géométriques, méthode qui s’avérait très efficace jusqu’à la création du sonar.

Dans notre cas, CV Dazzle ne camoufle pas des caméras thermiques, des caméras 3D, ni des caméras infrarouges, et tout comme son prédécesseur militaire, cette technique de camouflage esthétique est peu à peu inefficace face aux avancées techniques. Une note a été ajoutée en juin 2020 sur la page du projet CV Dazzle, annonçant que les « styles » proposés ne sont probablement plus efficaces. Il serait cependant possible de continuer à utiliser cette technique de camouflage en se renseignant au préalable sur les algorithmes récents utilisés pour la surveillance.

Dazzle de guerre

Exemple de Dazzle, camouflage d’un navire de guerre

CV Dazzle CV Dazzle CV Dazzle

Adam Harvey, CV Dazzle (Computer Vision Dazzle), 2010

Utilisant une méthode plus efficace, car représentant un visage humain, l’artiste Leo Selvaggio créé un masque en résine à son image pour son projet URME Surveillance en 2013. Le principe n’est pas de faire disparaître Selvaggio mais de le décupler. Chaque personne portant le masque sera alors prise pour l’artiste. L’acheteur passe inaperçu et leurre la reconnaissance faciale qui ne peut déceler un autre visage que celui de Selvaggio. Il met cependant en garde les acheteur quant aux lois interdisant le port de ce genre de masque.

URME Surveillance

Leo Selvaggio, URME Surveillance, 2013

La graphiste et chercheuse Simone C. Niquille se penche sur un aspect critique de la vision par ordinateur, et plus précisément sur comment sont reçues les informations. Une de ses productions, Glamouflage, présentée en 2014 dans l’exposition Black Transparency de Metahaven à la Future Gallery, Berlin, parle d’une faiblesse de la reconnaissance faciale en temps réel. L’ensemble de l’exposition est une critique esthétique du manque de transparence dans les outils d’information et de reconnaissance qui nous entourent. Niquille joue alors sur le fait de porter un camouflage, ne pouvant pas altérer les images reçues par la caméra, elle va proposer une série de t-shirts au motif prévu pour perturber la reconnaissance faciale. En effet, le motif comporte des visages de célébrités, le but n’étant pas de devenir un ennemi public non identifiable mais bien de brouiller les pistes à la manière de camouflage.

Glamouflage

Simone C. Niquille, Glamouflage, Black Transparancy, Metahaven, 2014

La reconnaissance faciale au niveau de la publication en ligne est au centre des inquiétudes, nous ne savons pas réellement ce que deviennent nos photographies personnelles, ni qui peut nous référencer et accéder à notre contenu à notre insu. Des méthodes simples pour éviter que le programme ne réussisse à reconnaître une image ont été trouvées. Il s’agirait de brouiller manuellement une photographie et perturber cette vision du réel; garder un contenu visuel accessible à l’œil mais dont les programmes ne décèlent plus le contenu, et donc pouvant échapper à la filtration d’image.

Aujourd’hui, pour le contenu dédié à être publié en ligne, nous nous posons la question de vie privée voir d’anonymat et produisons des logiciels à même d’altérer un certain nombre de données et de « masquer » les visages, notre identité. Fawkes, par exemple, permet d’automatiser la légère modification de quelques pixels d’une image pour empêcher la reconnaissance faciale.20 À nos yeux, modifier quelques pixels n’affecte pas notre reconnaissance d’un visage, mais pour les programmes, un léger changement peut perturber la reconnaissance d’un individu. Plusieurs photographies d’une même personne, utilisant un logiciel de camouflage, sont alors interprétées comme un nouvel individu pour chaque image. Il est alors impossible d’identifier une personne. La raison de ces changements minimes que l’ordinateur de comprend pas, c’est le fait de briser les régions identifiables, l’homogénéité dans l’intensité des pixels. La forme générale est donc perturbée.

Fawkes, image de base Fawkes, image modifiée

The SAND Lab at University of Chicago, Fawkes, Image « Cloaking » for Personal Privacy

Nous pouvons en déduire que les méthodes d’identification évoluent, progressent, deviennent plus performantes jour après jour, cependant l’erreur n’est jamais très loin. Prétendre être capable d’identifier efficacement l’ensemble des individus et des éléments présents sur une image n’est pas encore possible aujourd’hui. L’erreur est bien souvent involontaire et indique que bon nombre de ratés sont encore à prévoir, et ce n’est qu’en continuant à rater que l’on peut espérer s’améliorer. Je me suis alors demandée ce que pouvait être une image ratée aussi bien dans le champ de création de photographies personnelles mais aussi en étendant ma réflexion sur les utilisations et non-utilisations de ces photographies. Quel est alors leur intérêt ? S’agit-il uniquement d’un idéal esthétique non atteint ou plus largement l’intention même d’une photographie qu’il faudrait considérer comme ratée.

Images ratées

Paradoxalement, contourner facilement la censure revient à utiliser les techniques de censure elles-mêmes, masquage, flou, pixellisation. Nous masquons ce que nous ne souhaitons pas montrer et effaçons toute trace d’une quelconque information. Les identités sont retirées, les individus deviennent des silhouettes d’eux même, impossible à distinguer les uns des autres. Nous venons déposer un voile de mystère tout en ayant conscience que nous nous trouvons face à quelque chose qui ne correspond pas à la réalité.

S’il y a perte de l’intention de départ, l’image finale est-elle considérée comme ratée ? Sommes nous obligés de rater nos photographies pour continuer à les diffuser en toute liberté ? Où se situe la limite de l’altération d’une image pour continuer à en retirer une information ? La transmission d’information par l’image serait détournée, différente de l’information originale. Que peut bien nous dire une image censurée ?

Thomas Ruff, photographe allemand, s’intéresse aux nombreux enjeux de la photographie contemporaine. Dans sa série Nudes (2000), il collecte un nombre incalculable de photographies mises en ligne, notamment à contenu pornographique, et vient leur donner une nouvelle valeur en produisant un aspect flouté, presque de mouvement. Ces images deviennent contemplatives; il est possible de saisir le contenu, de deviner l’image d’origine, sans en dévoiler les détails. Ruff ne cherche pas à provoquer mais bien à décontextualiser ses photographies. Le flou en photographie est, comme précisé précédemment, considéré comme une composante de l’image ratée. Sa série Jpegs procède également par une collecte d’images en ligne, après les événements du 11 septembre. Réalisant que ses clichés personnels sont perdus, il se lance dans une recherche en ligne. Il collecte les images et réduit leur définition en les compressant en fichiers de 100 ko pour ensuite en faire d’immenses tirages abstraits mais lisibles à la « bonne » distance. Les images elles-mêmes sont semblables à un amas de pixels. Que ce soit avec Nudes ou Jpegs, Ruff utilise des codes parlant de censure. Ces deux types d’images circulent librement, sont visibles car ne vont à l’encontre d’aucune règle. Les photographies de la série Nudes sont suggestives et devraient logiquement subir la filtration d’image sur un réseau tel que WeChat. Toute image montrant de la nudité enfreint les règles acceptées par les utilisateurs de la plateforme chinoise. Pourtant, le 20 janvier 2021 un compte officiel publie un article sur WeChat présentant les travaux de Thomas Ruff. Nous y retrouvons une dizaine d’images issues de la série Nudes. L’ensemble de l’article est encore accessible au moment de l’impression de ce mémoire. Si ces mêmes images avaient été nettes, elles auraient été directement retirées de la plateforme. Le fait qu’elles soient floues est probablement la seule raison qui leur permet d’exister sur WeChat car elles seraient considérées comme censurées.

Nudes de Thomas Ruff sur WeChat Nudes de Thomas Ruff sur WeChat

Captures d’écran d’un article publié sur WeChat, comportant la série Nudes de Thomas Ruff, 20 janvier 2021
Esthétique pauvre

Nous gardons les images que nous considérons comme « bonnes photographies » mais qu’est-ce qu’une « image ratée »? Que faisons-nous des ces clichés? La photographie ratée, en tant qu’objet, est d’autant plus éphémère que l’instant photographique. Elle est vouée à être jetée, oubliée, non diffusée. Cette capacité du numérique à produire un contenu visuel rapide intéresse de nombreux photographes, aussi bien dans un travail de collecte que dans la prise de vue. Une image oubliée, abandonnée, serait une image ratée. Ayant une pratique de collectionneur d’images, Thibaut Kinder arpente les vide-greniers pour y dénicher les cartes SD oubliées et récolte leur contenu. Il devient alors le propriétaire des photographies. Ces images vouées à devenir éphémères et délaissées retrouvent une place dans une collecte, une sélection et enfin une publication.21 Une image ratée c’est aussi le bougé, le flou sur le sujet, la surexposition, la sous-exposition, l’objet interposé, etc. L’instant que l’on voulait capturer mais qui est « manqué »? Est-ce alors une image manquante? Un sujet que l’on souhaitait inclure mais qui s’avère être hors-champ. Tant d’images qui seraient alors « ratées ». Pourtant, elles contiennent toutes une part d’information. D’après Ernst van Alphen, professeur et chercheur dans les domaines de l’investigation archéologique et de l’image d’archive, les images floues remettent d’autant plus en question la notion de photographie. Le flou est la plupart du temps dû au mouvement du sujet et/ou du photographe, mais aussi dû à une longue exposition. Il y a perte de l’instantanéité, de représentation du réel si l’on ne peut saisir le réel dans l’image produite, elles deviennent « self-reflective ».22 Ce terme que van Alphen utilise signifie que la photographie floue se questionne elle-même, aussi bien sur le plan technique mais surtout dans sa capacité à produire des images. Il nous faut contempler et être attentif pour retrouver le sujet de la captation. Pourquoi chercher à avoir une image parfaite quand l’évolution de la technique permet de se libérer d’une parfaite représentation réel? Certains photographes professionnels comme Hans Neumann (pour Crash Magazine) prônent l’esthétique pauvre de la photographie numérique via smartphone pour réaliser leurs commandes professionnelles. Le rendu plus « simple » et plus brut apporte une impression de proximité, de scènes instantanées, propre à l’utilisation populaire de la photographie de téléphone aujourd’hui.

Hans Neumann

Hans Neumann

Valentin Herfray a également l’envie de se jouer des systèmes présents dans nos smartphones, comme l’option panorama. En utilisant les limites de la technique automatisée, il joue contre l’appareil et produit des images que le le fabricant et l’opinion général considèreraient comme ratées mais qui ont une esthétique propre et reconnaissable. Ces acteurs de la mauvaise photographie investissent des supports de diffusions habitués à l’image parfaite, retouchée et commerciale; venant alors briser les codes, les usages et les pratiques de l’édition imprimée. Nous avons à faire à de « nouvelles » images.

Valentin Herfray

Valentin Herfray

Les images intéressent Erik Kessels, artiste hollandais, ayant un fort intérêt pour la photographie et dont le rapport à la collection domine son travail. Dans son ouvrage Failed it! How to turn mistakes into ideas and other advice for successfully screwing up, il incite même à produire des photographies dites ratées.

(…) les déchets à moitié vide de quelqu’un d’autre peuvent devenir votre trésor à moitié plein. Simplement parce que quelque chose à été rejeté par quelqu’un ne veut pas dire qu’il n’a pas de potentiel. L’artiste Joachim Schmid apprécie les photographies trouvées — images abandonnées, perdues ou jetées par leur propriétaires d’origine. Dans ses mains, des images d’apparence banales, sorties de leur contexte et personnalité, sont transformées en quelque chose d’intrigant. (…) Il joue avec un des formats de la photographie les plus prévisibles: le portrait en studio. Schmid a mis la main sur une boîte de négatifs non retenus, coupés en deux pour ne plus être utilisables. Il constate que le studio a positionné les lumières, l’appareil photographique et le sujet exactement de la même manière pour chaque image. Il ré-associe les négatifs, lui faisant correspondre deux moitiés peu familières. L’association visuelle est presque parfaite, le résultat incroyablement improbable.23

Considérer qu’une photographie est ratée est alors très subjectif. Ce que certains considèrent raté peut être le succès de quelqu’un d’autre. Il en est de même pour le numérique.

Ce qui avait été considéré jusque-là comme un déchet — les « traces numériques » vomies dans les serveurs de Google lors de l’action de combustion de Search — ne tarda pas à être repensé comme étant crucial de la transformation du moteur de recherche de Google en processus réflectif d’apprentissage et d’amélioration continus.24

L’exemple de Google et de Search nous prouve que les « traces numériques » que nous laissons en ligne lors de nos recherches sont ce qui a permis à Search de se développer. Nous cherchons à apprendre une information en utilisant Google, et Google va apprendre comment améliorer son système grâce à nous. Alors que la surveillance de masse fait désormais partie de notre quotidien et que les algorithmes apprennent par nos activités en ligne, un contenu raté, imparfait mais reconnaissable par l’œil humain uniquement serait une petite victoire face à l’atteinte de la vie privée. Je m’intéresse alors au flou comme type de raté.

L’image floue interpelle/que s’est-il passé?

Être raté, c’est ne pas correspondre à une attente. Obtenir un résultat qui n’est pas celui escompté. Pourtant rater peut emmener à quelque chose de nouveau. Le flou photographique interpelle. Habitués aux clichés nets et d’une qualité toujours plus élevée, le flou, lorsqu’il ne sert pas à isoler un sujet net, nous donne cette impression de raté, d’erreur à la la prise de vue. Notre appareil n’aurait pas eu le temps de faire la mise au point, nous nous retrouvons avec une photo d’instant manqué et nous empressons de déclencher à nouveau pour rattraper le tir, avoir enfin ce moment que nous voulons retenir. Le flou c’est cette impression de perte de contrôle, l’impossibilité de reproduire ce que nos yeux nous permettent de voir. Ce sont alors des images inhabituelles. C’est aussi cette impression de vitesse, un événement furtif qui nous est difficile à suivre du regard. Parfois même une contrainte, nous ne sommes pas tous à même de voir nettement le monde qui nous entoure et sommes obligés de corriger notre vue pour enfin parvenir à appréhender notre environnement. Dans cette recherche du net, les images floues sont éliminées du quotidien. Il serait surprenant de se retrouver face à une photographie floue pour décrire un souvenir car on ne reconnaîtrait pas les sujets, la scène, l’action. Nous avons besoin de réconfort et de stabilité. Appuyer ses propos sur une représentation visuelle abstraite engendre en nous un sentiment d’incertitude. Il nous faut presque systématiquement « le voir pour le croire ». Au cinéma, par exemple, le flou est souvent utilisé comme une métaphore visuelle de la perte de mémoire ou de conscience. L’un des principaux apports de la photographie est le fait de pouvoir capturer le réel. Photographier, c’est laisser une quantité de lumière plus ou moins importante traverser une ouverture ou une lentille et se déposer sur une surface. La sortie devrait être fidèle à l’entrée, sans distorsion, sans subjectivité ni de place à l’interprétation. Alors une photographie qui sème en nous le doute reste-t-elle toujours une photographie? Que se passe-t-il lorsque les photographies deviennent plus abstraites voir contemplatives? Chacun d’entre nous est probablement l’auteur d’un plus grand nombre de photographies alors jugées ratées que de bonnes photographies. D’instinct, nous les estimons aptes ou non à être conservées, au pire nous les supprimons, au mieux nous les laissons de côté et elles seront destinées à être oubliées. Ce n’est que lorsque que le flou a une utilité que nous le tolérons. En effet, les vidéos, et notamment les images télévisées nous ont habitués à des images d’individus floutés pour une question d’anonymat et de censure. À l’inverse d’une photographie floue, nous acceptons une vidéo dont une partie est floue. Nous savons que le flou a été ajouté à la suite d’une captation du réel, nous avons encore accès à un contenu auditif et donc à un apport d’information. En d’autres termes, nous acceptons un visuel raté lorsqu’il nous est encore possible d’en retirer un message, et laissons nos photographies floues devenir des images oubliées, des fantômes du quotidien. Ces images oubliées, auto-censurées qui n’attirent pas l’attention sont alors le début d’une stratégie contre la censure, comme une tentative pour reprendre le contrôle.

Produire des images floues

Le propre d’une image censurée par le flou, c’est d’en dissimuler une partie. En altérant l’image, nous perdons un certain degré d’informations et, sans copie de l’original, il nous est alors impossible de pouvoir retrouver fidèlement l’ensemble des détails. Malgré les entrainements intensifs des algorithmes, une inconnue qui résiste à l’homme sera toujours difficilement vérifiable dans les interprétations de la vision par ordinateur. Les images floues sont pourtant un domaine de recherche du deep learning. Il s’agit d’une classe d’algorithmes non supervisés que l’on appelle GAN (Réseaux Adverses Génératifs, ou Generative Adversial Networks en anglais). Ils sont introduits en 2014 par Ian J. Goodfellow, chercheur dans le domaine de l’apprentissage automatique, et permettent de générer des images au plus proche du réel. Pour revenir sur le fonctionnement du deep learning, le GAN se base sur deux réseaux de neurones génératifs, affinant mutuellement les résultats du réseau opposé jusqu’à ce que l’un d’eux soit trompé. Le résultat étant une image fictive basée sur une sélection d’images similaires. Dans le domaine du flou le degré de prédiction est encore trop peu incertain, les images produites semblent être réussies, on pourrait y reconnaître un individu, mais pourtant le portrait créé s’éloigne encore beaucoup de l’original.

Head Inpainting

Qianru Sun, Liqian Ma, Seong Joon Oh, Luc Van Gool, Bernt Schiele, Mario Fritz, Natural and Effective Obfuscation by Head Inpainting, 2018

Cette difficulté que rencontre l’ordinateur peut alors être le fer de lance d’un tout nouveau type d’images. Une image ratée, floue, vouée à être supprimée pourrait au contraire être l’image, certes dont l’esthétique peut être discutable en fonction de son utilisation, qui une fois combinée à d’autres outils nous garantirait une liberté d’expression.

Contourner le réel, au plus proche du réel

Le réel, rien que d’introduire ce terme, on se demande ce qu’on a dit. Lacan, Scilicet 6/7

Photographier est supposé capturer le réel. Mais alors on peut se demander ce qu’est le réel. Ce terme familier référent à un milieu connu, une image que nous pouvons identifier, une situation vécue ou dont nous connaissons l’existence. Pourtant parler de réel à l’ère du numérique sème le doute. Si nous avons conscience que ce que nous voyons en ligne est sélectionné pour nous, basé sur nos intérêts, publié par des utilisateurs qui cherchent à se valoriser; l’idée du réel est alors faussée. Que considérons-nous comme réel aujourd’hui ? Une image familière nous semblera réelle mais peut-on alors se jouer des codes du réel pour produire une réalité alternative, dont nous sommes le héros et dont il sera difficile de contester la véracité ? En fait, il est impossible d’affirmer qu’il n’existe qu’une seule réalité. Nous expérimentons un événement, un fait, notre réalité d’une manière en partie ou totalement différente de quelqu’un d’autre. Tout dépendra de nos expériences passées et de notre jugement. Ce qui existe, ce sont différentes versions de la réalité, dont certaines peuvent être contradictoires, et qui sont toutes l’effet de la communication et non le reflet de vérités objectives et éternelles.25

Selon Watzlawick, le fait même d’échanger une information doit être mis en doute en fonction du mode d’échange de l’information. En effet, une confusion ne serait-ce qu’au stade de la traduction peut vite altérer notre compréhension de cette réalité. La nouvelle information reçue est plus ou moins proche de l’information d’origine, produisant ainsi non plus une réalité mais des réalités. Cette fois-ci au sujet de la désinformation, affirmer une information fausse mais qui selon notre degré de confiance est considérée comme vraie, produit une fois de plus une nouvelle forme de réalité, faussée et créée à des fins de propagande. Des rumeurs jusqu’aux hystéries collectives, sentir que nous ne sommes pas seuls à croire en une réalité la consolide. Enfin, la communication est le dernier point abordé, notamment par l’apprentissage et la transmission d’information dans des situations concrètes comme imaginaires, ou lorsqu’elle est de l’ordre de l’hypothèse (par exemple la vie extra-terrestre et nos tentatives de communiquer avec une forme de vie supposée). Grâce aux nouvelles technologies, nous passons par ces phases de réalité. Produire des images, des photographies de réalités imaginaires revient à réduire la confiance dans ce que nous avions identifié comme réel.

Utiliser le réel pour créer une nouvelle réalité

Le champ du machine learning n’est pas juste réservé aux entreprises développant des logiciels de reconnaissance toujours plus développés. Memo Akten, artiste dont l’œuvre se concentre autour de la créativité collaborative entre humains et machines, étudie la capacité de la machine à comprendre des informations données. C’est le cas pour Learning to see (débuté en 2017). Akten utilise le principe du deep learning pour donner au programme des éléments à reconnaître suivant une base de donnée limitée. Une caméra cadre une table sur laquelle sont disposés des objets du quotidien, l’algorithme, se basant sur 5 thématiques (océan et vagues, nuages et ciel, feu, fleurs, galaxie) va alors tenter d’interpréter la scène pour produire une image au plus proche de la composition. Bien évidemment il s’agit là de jouer avec la machine car son niveau d’apprentissage étant limité, il est impossible d’obtenir une image des objets présents. Learning to see utilise également les algorithmes d’apprentissage GAN. L’intention, restant encore le propre de l’humain, vient par la suite implémenter une idée dans un ensemble de calculs.

Memo Akten

Memo Akten, Learning to see, 2017

Si la création de portraits se basant un corpus de visages permet déjà de créer de faux individus dont le réalisme est troublant, il est encore possible de déceler si une photographie est réelle ou non. En effet, les composantes du visages sont facilement reconnaissables et donc utilisées efficacement par l’ordinateur. Une bouche reste une bouche. En créer une nouvelle n’est alors pas impossible. Les avancées prometteuses dans le domaine de la création de portrait ouvre sur de nouvelles utilisations du portrait. Produire des portraits réalistes mais fictifs permettrait de fausser la réalité. Par contre, la faiblesse réside principalement dans le détail. Deux éléments notoires sont l’arrière-plan et, aussi surprenant que cela puisse paraître, les boucles d’oreilles.

thispersondoesnotexist.com thispersondoesnotexist.com

Tero Karras, thispersondoesnotexist.com, 2019

L’ordinateur ne prend pas en compte les codes esthétiques auxquels nous sommes habitués, et associer les boucles d’oreilles par paire en fait partie. Pour tester cette théorie, j’ai utilisé la page thispersondoesnotexist.com. Il s’agit d’une page web créée par l’ingénieur Tero Karras en 2019, affichant à chaque actualisation un portrait d’une personne qui n’existe pas, entièrement construit par ordinateur. Si d’un simple regard les visages nous semblent cohérents, ou du moins ne nous choquent pas, les éléments de marges d’erreurs sont présents. Ces nouvelles images, créées de toutes pièces seraient-elles à même de créer des images fausses, sans discours apparent, capables d’esquiver la surveillance de notre activité en ligne? Des images fantômes, indétectables?

DeepFake et Disrupting DeepFakes

Cette prise de décision humaine a poussé les techniques de l’intelligence artificielle un peu plus loin en 2016 en transposant le visage d’un individu sur une vidéo représentant un autre individu. Les mouvements faciaux sont simulés sur l’image de départ pour venir s’appliquer comme un masque sur la vidéo pour la contrefaire. Nous parlons de DeepFake, « Deep » étant pour « Profond » de « Deep learning » et « Fake » pour « faux ». Utilisé pour de mauvaises intentions, le DeepFake est un outil fort de désinformation et d’altération d’une réalité. Le système peut aussi être utilisé en photographie en générant des portraits différents d’une même personne. Elle peut avoir une pose différente, d’autres expressions. Il est possible de faire varier la couleur des cheveux ou même simuler un âge différent.

Le DeepFake peut alors être un outil important de diffusion d’information, pourquoi pas montrer un événement qui ferait l’objet d’une filtration d’image en modifiant les sujets présents à cet événement. Comme si nous faisions une reconstitution en demandant à des acteurs de jouer un rôle. Sauf que dans le sens inverse, le DeepFake peut aussi inculper des innocents en les mettant en scène dans des situations compromettantes. En 2020, nous cherchons déjà à nous protéger contre ce type d’attaque en créant des Disrupting DeepFake (DeepFake perturbant). Il s’agit d’altérer suffisamment ses images pour se protéger des « attaques » de DeepFake. Nous considérons que les modifications se trouvent principalement au niveau des yeux ou de la bouche. En programmant un algorithme de Disrupting DeepFake nous ne savons pas d’avance quelle partie du visage serait attaquée et devons donc nous préparer à toute éventualité. En avril 2020, Nataniel Ruiz, Sarah Adel Bargal, Stan Sclaroff publient des recherches pour l’université de Boston.

Disrupting DeepFakes

Nataniel Ruiz, Sarah Adel Bargal, Stan Sclaroff, Disrupting DeepFakes, recherches pour l’université de Boston, avril 2020

Ils décrivent cette part de semi-inconnue comme une « boîte grise » et produisent les premières tentatives de contre-attaque en altérant deux cibles de modifications. Le but n’étant pas de créer un nouveau visage, un nouveau portrait anonyme, mais de mettre en place un système préventif qui empêcherait les modifications. À mon sens, les altérations ne permettant pas l’utilisation du DeepFake sont également valides pour éviter la reconnaissance faciale. En observant les images de la recherche menée, nous pouvons toujours essayer de retrouver quelques singularités propres au visage d’origine, mais je ne pense pas que la vision par ordinateur puisse l’identifier. On s’assure alors de pouvoir créer des portraits sur la base d’individus réels mais qui échapperaient à la réalité des systèmes d’identification. Les techniques de Disrupting DeepFakes agissent comme des filtres, des masques plaqués sur notre visage, rendant notre identité difficile à déterminer.

Les possibilités de ce genre de techniques peuvent non seulement contrer les systèmes de reconnaissance mais aussi la censure elle-même. Il n’y a pas grand intérêt à retirer la photographie d’une personne fictive car elle n’inculpe personne en particulier. La faiblesse d’une technique, combinée à la force d’une technique naissante permettrait de générer des images sociales malgré un contexte de surveillance. L’enjeu est de délimiter où se situe la frontière exploitable entre une image ratée qui n’apporte pas d’information, et une image ratée qui réussit à échapper à la vision par ordinateur tout en nous permettant de reconstituer une information.

Conclusion

La photographie évolue en tant que lien social et est plus que jamais diffusée sur les réseaux sociaux. Les images photographiques se développent au rythme des avancées techniques et sont utilisées afin de transmettre des informations entre utilisateurs. Elles transmettent également à notre insu vers des algorithmes qui apprennent et se perfectionnent grâce aux images que nos publions. Le progrès technique des images est à double tranchant, en acceptant les conditions d’utilisations des réseaux sociaux, nous diffusons, échangeons et avons accès aux avantages qui nous sont proposés. Mais nous acceptons également un mécanisme invisible de contrôle de nos données personnelles. Notre identité numérique se construit, grandit et est de plus en plus précise. L’ensemble de nos images et intérêts sont répertoriés puis analysés, nous subissons cette perte de contrôle et notre identité numérique se confond avec notre identité personnelle. Alors comment réussir à conserver son individualité ? Dans une société de surveillance, notre portrait et nos images permettent de mieux nous identifier. L’Europe limite peu l’accès aux informations, mais des pays comme la Chine tendent vers un contrôle systématique sur l’ensemble des individus. L’accès aux informations est restreint et la désinformation constante. Les contenus jugés inappropriés sont identifiés, censurés et retirés. Quel bénéfice de la reconnaissance faciale pouvons nous alors en tirer ? Quels sont les impacts de nos pratiques en lignes sur notre quotidien ? Mon mémoire ne prétend pas trouver une solution universelle contre la censure, mais j’ai cherché à trouver une brèche inexploitée permettant d’échapper un tant soit peu à la filtration des images. Bien que les méthodes présentées précédemment semblent aujourd’hui efficaces, il me semble important de préciser que ce n’est qu’en s’informant constamment des avancées techniques qu’il est possible de continuellement les ajuster. Leur obsolescence est inévitable mais peut être différée. Les images sont analysées suivant différents types d’éléments : grâce à une classification par regroupement et comparaison, grâce à la relation texte/image, grâce aux informations inscrites dans les métadonnées et grâce à l’organisation de pixels de l’image créant alors des zones et formes identifiables. Cette capacité à analyser devient problématique lorsqu’elle affecte notre image et devient intrusive. La faille des algorithmes et de la vision par ordinateur se trouve à mon sens dans les images ratées, si ce n’est jusqu’à dire floues. Elles ne font par partie des images jugées intéressantes pour l’apprentissage du deep learning et sont alors présentes mais absentes des registres habituels. Plusieurs méthodes existent et sont mises en pratique pour perturber la vision par ordinateur. Le camouflage, le raté, l’inattendu et le faux peuvent échapper à la surveillance. Les photographies ratées sont alors des images fantômes circulant dans les réseaux sociaux.

Notes


  1. Roland Barthes, La Chambre Claire, note sur la photographie, éditions de l’Étoile – Gallimard – Seuil, collection cahiers du cinéma, Paris, 1980 

  2. CNN, Lancement du premier visiophone mobile, 1999 

  3. leparisien.fr, Canada : les photos d’une jeune suicidée utilisées pour un site de rencontres, 18 septembre 2013 

  4. Beaumont and Nancy Newhall, Masters of Photography, New York, 1958 

  5. Les Observateurs, France 24, Ces photos d’archive détournées pour faire de l’intox, 2018 

  6. Britannica, Queen Elizabeth British passenger ships 

  7. Sabine Süsstrunk, Estelle Blaschke, Davide Nerini, Calculer les images. Photographie et intelligence artificielle, Transbordeur photographie, tome 3, Câble, copie, code, Photographie et technologies de l’information, Éditions Macula, Genève, 2019 

  8. Jeff Guess, Conversations, Transbordeur photographie, tome 3, Câble, copie, code, Photographie et technologies de l’information, Éditions Macula, Genève, 2019 

  9. Estelle Blaschke, De la microforme au robot dessinateur, la place des données dans l’image photographique, Transbordeur photographie, tome 3, Câble, copie, code, Photographie et technologies de l’information, Éditions Macula, Genève, 2019 

  10. Carlo Ginzburg, Traces, in Mythe emblèmes traces, éditions Verdier poche, 2010 

  11. Takeo Kanade, Picture Processing System by Computer Complex and Recognition of Human Faces, doctoral dissertation, Kyoto University, November 1973  

  12. CloudWalk, Face Recognition Access Control System 

  13. 20minutes.fr , iPhone X: Un enfant de dix ans trompe Face ID et déverrouille le téléphone de sa mère, 2017 

  14. support.apple.com , À propos de la technologie avancée Face ID, Fonctionnalités de sécurité 

  15. BFM TV, La reconnaissance faciale d’Apple accusée de ne pas savoir différencier les visages des chinois, 2017 

  16. Vincent Lucchese, Prédiction des crimes : « Les algorithmes reflètent les discriminations», 2018 

  17. liberation.fr , Ouns Hamdi et Mathilde Roche, L’algorithme de Twitter choisit-il toujours une personne blanche dans ses aperçus d’image ? Septembre 2020 

  18. Brandwatch, K. Smith, 126 amazing social media statistics and facts, 2019 

  19. Lindsey Kathryn Trotter, A case study involving creating and detecting steganographic images shared on social media sites, Iowa State University Capstones, Theses and Dissertations, 2019 

  20. Shawn Shan, Emily Wenger, Jiayun Zhang, Huiying Li, Haitao Zheng, Ben Y. Zhao, Fawkes: Protecting Privacy against Unauthorized Deep Learning Models, Computer Science, University of Chicago, 2020 

  21. Thibaut Kinder, An Egyptian Story, Lendroit éditions, Rennes, 2018 

  22. Ernst van Alphen, Failed Images, Photography and Its Counter-Practices, Valiz, Vis-à-vis, Amsterdam, 2018, p.226 

  23. Erik Kessel, Failed it! How to turn mistakes into ideas and other advice for successfully screwing up, Phaidon Press Limited, 2016, p.43 

  24. Shoshana Zuboff, L’âge du capitalisme de surveillance, Éditions Zulma, Paris, 2020, p.202 

  25. Paul Watzlawick, La réalité de la réalité, Confusion, désinformation, communication, Points Essais, Éditions du Seuil, 1978